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Prufungsantrag gem. S 44 PatG ist gestelrt 

(3) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen 

(§) Bet einem Verfahren und einer Anordnung zur Spracher- 
kennung bei Wortkomposita onthattenden Sprachen warden 
in einem Sprachmodefl lediglich Kompositabestandteile ge- 
speichert Nur diese Bestandteile warden im Vokabular 
verwaltet 

Bei der Erkennung mdgOcher Kom posits werden fOr die 
entsprechenden Kompositabestandteile sowie fur die mogti- 
chen Einzetworter getrennte Bearbertungspfade eingerich- 
tet suf denen tpezrfische SprachmodaUatattstiken berech- 
net werden. Grundlage fOr die SpmchmodeHstatistiken ist 
die Zeriegung der Wahrscheinlichkett bet der der Kontext 
und die Bestandteile eines Kompositums getrennt beruck- 
stchtigt werden. Debei wird die von der Linguistik her 
bekannte Tatsache, daft grammatisch bestimmende Teile 
1 eines Kompositums in der Reg el am Komposttumende 
' sufzuftnden sind, wobei dlese Kompositumbestandteile Aus- 
1 kunft Qber Genus, Casus, Numerus des Kompositums eeben, 
susgenutzt 

Die Erfindung eignet sich tnsbesondore fur die Echtzeit- 
Spracherkennung bei diskrctem und kontinuierlichem Diktat 
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Beschreibung 

Die voriiegende Erfindung bctrifft zum einen em fur Wortkomposita geeignetes Spracherkennungsverf ahren. 
das bei sowohl diskretem als auch kontmuieriichem Diktat einsetzbar ist und das sich insbcsondere zur Echtzeit- 
Spracherkennung eigneL Des weiteren bezieht sich die Erfindung auf eine Spracherkennungsanordnung zur 
Anwendung dieses Verfahrens, 6 

Der Erfindung liegt seitcns der Anmelderin entwickelte Spracherkennungssystem TANGO RA zugrunde 
TANGORA ist em Echtzeit-Spracherkennungssystera fur grofie Vokabulare mit mehr als 20 000 Wortformen, 
das mit geringem Aufwand vom Benutzer sprecherspezifisch trainiert werden kann. 

Ausgangspunkt bei diesem bekannten System ist die Aufteilung des Spracherkennungsprozesses in einen auf 
akustischen Daten basterenden Teil (Decodierung) und einen auf Sprach- bzw. Textkorpora etnes bestimmten 
Anwendungsbereichs zurQckgreifenden sprachstatistischen Teil (Sprachmodell). Die Entscheidung Qber Wort- 
kandidaten ergibt sich somit jeweils aus einer Decoder- sowie einer Sprachmodell-WahrscheinUchkeiL Fur den 
Anwender ist pnmar die auf grund dieser Architektur mogliche Anpassung des vom Erkennungssystem verarbei- 
is teten Wortschatzes an brandienspezifische oder sogar indmdueUe Anforderungen von besonderer Bedeutung 
Bei diesem Spracherkennungssystem liefert die akustische Decodierung zunachst WorthypotheseiL Bei der 
weiteren Bewenung raitemander konkurrierender Worthypothesen werden nun die Sprachmodelle zugrunde- 
gelegt Diese stellen aus anwendungsspezifischen Textkorpora gewonnene Schatzungen von Wortfolgenhaufig- 
keiten dar und basteren auf einer Sammlung von Textproben aus einem gewunschten Anwendungsbereich. Aus 
20 diesen Textproben werden die haufigsten Wortformen und Wortf olgestatistiken generiert. 

Bei dem hier angewandten Verf ahren zur Hauftgkeitsschatzung von Wort folgen werden die Haufigkeiten fur 
das Auftreten von sogenannten Wortform-Trigrammen in einem gegebenen Textkorpus geschatzt (siehe u. a, 
Nadas, A. "On Turing's Formula for Word Probabilities", IEEE Proc. ASSP. 33, 6, 1985, pp. 1414-1416). Bei 
einem Wortschatz von 20 000 Wortformen, wie er derzeit in dem Spracherkennungssystem TANGORA genutzt 
25 wird, waren allerdings etwa 8 Biilionen Trigramme mogiich. Die in der Praxis gesammelten Korpora stnd also 
immer noch urn einige Zehnerpotenzen zu kiein, um Qberhaupt alle Trigramme auch nur beobachten zu konnea 
Diesem Problem des begrenzten Wortschatzes wird a^.0. mit der Bildung sogenannter Objektkiassen, die in 
dem Sprachkorpus mit glekher Haufigkeit vorkommen, begegnet Die Schatzung basiert dabei auf der Annan* 
me einer BinomiaJverteilung einer Zufalbvariabien, welche allgcmein die Ziehung etnes Objektes aus einer 
30 Haufigkeitsklasse beschreibt ; 
In bekannten Spracherkennungssystemen wird fur diese zu schatzenden Wahrscheiniichkeiten haufig <Jas 
sogenannte Hidden- Markov- Modell angewendet Hierbei werden mehrere im Textkorpus beobachtete Hauflg- 
keiten zugrundegelegt FQr ein Trigramm "uvV sind dies ein Nullgramm-Term fo, etn Unigramm-Term ft>X cin 
Bigramm-Term f H v ) sowie etn Trigramm-Terra f (w| uv). Diese Terme entsprechen den im Textkorpus 
35 beobachteten relativen H&ufigkeiten, wobei dem Nullgramm-Term ledigtich eine korrektive Bedeutung zu- 
kommt 

FaBt man diese Terme als Wahrscheiniichkeiten des Wortes w unter verschiedenen Bedingungen auf, so kann 
man eine sogenannte iatente Variable zufugen, von der aus durch ZustandsObergange eine der vier Bedingungen 
erreicht wird, die das Wort w erzeugen. Bezeichnet man die Obergangswahrschemlichkeiten fur die betreffen- 
40 den Terme mit X© k it A*, X3, so ergibt sich folgender Ansatz fur die Darstellung der gesuchten Trigrammwahr- 
scheiniichkett 



Pr(w|uv) = X« f 0 + Xi f (w) + X 2 ft>|v) + U f (w|uv) (1) 

45 Die eigendiche Schatzung der Obei^ngswahrscheinlichkeiten erfolgt mittels der Methode der sogenannten 
"deleted estimation" (s. Jelinek, F. und Mercer, R^ Interpolated Estimation of Markov Source Parameters from 
Sparse Data", in Pattern Recognition in Practice, Amsterdam, North Holland, 1980, pp. 381-397). Bei diesem 
Verfahren werden durch Wegtassung von Korpusteilmengen mehrere kleinere Textstichproben erzeugt FQr 
jede Suchprobe erfolgt eine Bewertung nach der oben genannten Methode, die auf den Wortfolgestatistiken 

50 beruht 

Die bekannten Spracherkennungssysteme haben den Nachteil, da£ jedes Wort ab eine Wortf orm im Wort- 
schatz dieser Systeme auftritt Aus diesem Grunde werden relativ hohe Anforderungen an die Spetcherkapazitat 
der Systeme gestellt Die im allgemetnen sehr umfangreichen Wortschatze wirken skh zudem nachteilig auf die 
SchneUigkett der Erkennungsverf ahren aus. 

55 In dem Aufsatz "Halbsilben als Bearbeitungsemheiten bei der automatischen Spracherkennung", G. Ruske, 
Journal "Sprache und Datenverarbeitung*. 8. Jahrgang 1984, Heft 1/2, S. 5- 16, wird zur Ldsung dieses Problems 
vorgeschiagen, bei der automatischen Spracherkennung zur Festlegung kletnster Bearbeitungseinheiten im 
Berekh der akustisch-phonetischen Analyse eine Segmentierung des Wortschatzes in Halbsilben vorzunehmen. 
GegenQber Systemen, denen SUben als Grundelemente zugrundeliegen und die aus diesen Grundelementen jede 

60 sprachliche AuBerung "bausteinartig* aufbauen, wetst diese Vorgehensweise hinsichtlich der Speicheranforde- 
rungen etc Vorteile auf. Denn beispielsweise im Deutschen betragt die Zahl der verschiedenen Stlben bereits 
etwa 5000. Ferner werden in dem Aufsatz die Vorzfige der silbenorientierten Segmentierung auch fur die 
hoheren Bearbeitungsstufen der Spracherkennung angesprochen, wobei von relativ sicher erkannten Silben 
ausgehend Worthypothesen generiert werden. Auf die Umsetzung dieser Hypothese in ein Sprachmodell wird 

65 don allerdings nicht eingegangen. 

Ein besonderes Problem bei der Spracherkennung steUen die in vielen Sprachen relativ haufig auftretenden 
Komposita dar. Beispielsweise treten im medizinischen Bereich haufig zusammengesetzte Fachtermini auf, die 
nur in einigen Sprachen durch Genitivattribute ausgedrttckt werden konnen. Bei den bekannten Spracherken- 
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den Speicher, ergeben. m/18506 DRAGON SYSTEMS INC USA. ist ein Spracherken- 

Inder intematidnalen Patentanmeldung _W0 1^ 8 ^ vorge „annte Problem des Spe,- s 
nungssystemfurKompoataen^ 

Kompositum manueU auszuwahlen Erfindww ein Verfahren und eine Anordnung zur Spracherken- 

Es ist demnach die Auf gabe der voriiegenden Erfindung nan Spracherkennungssystemen 
nung be, Wortkomposita ^^£^SSSS££ Se mogiichn reduzien werden konnen 

Un O^A^«^ 

von N-Gramm Haufigkeiten (Sp«chmode^tojdieW)^emuc^ ^ vorab verarbeiteten 20 
innerhalb einer aus N Wartern zusammengesetzten Wort ^W™™"™^ EHgitalisiercn des akusnschen 
V^^undSpeiAemjiieser ^^^^^'^^^Lci, «** "*f* einW 
Sprachsignals sowie Speichern des Transkriptionen naherungsweise Worter und Kompo- 

SienaWerarbeitung auf der Grundlage der phonet^en ^^puonen^ ^ ^^Uumkaiididaten 

S^ung«enmt^ * 

statistischen Sprachm<>dellwahrs^emlichkea im SprachmodeU nicht vqll- » 

Das erfindungsgemaBe Sp^erkwnungsv^^ m Form von EhBe^drteroDas 

standige Komposita zu speichern. sondem^glKh ^™P^ verwa i ten . Ein wesenthcher Geschts- 

^ennungssystem hat demnach nur d.ese ™ J£ ttm^ta »r die enaprechenden iComposj- 

^ktdies^Losungsgedankens ist. bet der ^^^^.^Sn^ade einzurichtead. h. eine jeweds 

»-*£ss£55«Sta. *>«*«trrc£Sta^^ 

j jV.JTw ,*«eben einen Kompositumanfang A,im S|«cnm^ »^ jogenannte interne N-Gramm- 
didaten W ge^ben «nen ^ ^^bejundteile gebikkt Heaeben das Kompositumen- 
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40 Venuchtung von Bearbeimn««SS bzw * Kompositofolgen und erne Enri^.- ^^""""Jung von 



55 Im einzdncnzcigcn: 

Fig. ^ 

Fig. 
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weise mittels der Zentraleinheit 6 vorab erstellte Listen einfacher Wdrter, Kompositumsanfangs- und -endteile 
abgelegt Die dera Sprachmodell zugrundeiiegenden N-Gramm Haufigkeiten befinden sich im Speicher 9 und 
wurden vorab aus fttr den jeweiligen Anwendungsbereich spezifischen Textkorpora gebiktet. Im Speicher to 
wird schlieBlich da« zu untersuchende digitate Sprachsignal gespeichert 

Bei der Spracherkennung von Komposita gemaB der Blockdarstellung in Fig. 2 sei zunachst angenommen. 
daB die Kompositabestandteile zusammenhangend diktiert werden, wobei die Ubergange zwischen Komposita- 
bestandteilen akustisch anders ausfailen werden, als bei einem diskreten Diktat Mittels einer Grobabstimraung 
20, die in erster Annaherung aufgrund eines vorgegebenen Vokabulars Kompositakandidaten idenufiziert. 
werden zunachst Zeitpunkte wahrscheinlicher Wort- bzw. Kompositagrenzen ermittelt Da die Kompositabe- 
standteile als einzelne Waiter im Vokabular auftreten, kann die Grobabstimmung 20 am Ende eines jeden 
BestandteilseinenderartigenKompositumgrenzzeitpunktaustnachea 

Ira AnschluG daran wird anhand der Sprachraodellwahrscheinlichkeit geprflft 21. wie die bei der Grobabstim- 
mung ermittelten Kandidaten in die gegebenen Bearbeitungspfade passen. Ira Rahmen dieser Prufung 21 kann 
es dann zur Anlegung von Verzweigungen 22 des Bearbeitungspfades zur Prufung mdglicher Komposita 
komraen. Die Verzweigung in zwei unterschiedliche Pfade stellt ledigUch eine vorteilhafte Ausfuhrungsform der 
Erfindungdar.Selbstverstandlichsindauch Verzweigungen mdreiodermehrerePfadedenkbar. 

Im weiteren wird fQr jeden Bearbeitungspfad 23, 24 eine Feinabstimmung 25. 26 zwischen akusmchem Signal 
und Kompositumkandidat vorgenommen. Im Falle eines Bearbeitungspfades fur erne Kompositumhypothese 
("Kompositumpfad") wird dabei nach der durch die akustische Aneinanderkettung der Kompositiimbestandteile 
des Kompositums gegebenen akustischen Symbolfolge gesucht. und nicht nach der fur die einzelnen Bestandtei- 
le. Fttr dirBertcksichtigung von Verschleifungen benachbarter Kompoatumteiie at zudem eine Kontextfunk- 

"oS'SdeV Erf.ndung zugrundeiiegenden SprachmodeU hingt die bedingte WahrscheinUchkeit eines 
Korapositumbestandteils einerseits vom vorausgehenden Konteftd h. den dera (Compositum vorausgehwden 
WdrSrn. andererseits von den Anfangs teilen des Kompositums selbst. ab. Die bedingte Wahrschemhchkeit 
eTiS^mpSmanfangsteib wird dabei nicht von der desselben Wortes als Enzdwort untersrt.eden. Es 
weSen°S*je ein Bearbeitungspfad fttr die Einzelworthypothese sowie ein Bearbeitungspfad fttr die 

^B^ig^irerSgung der Wahrscheinlichkeiten, bei der der einem Kompositura vorangehende 
Kontext und die Bestandteite eines Kompositums getrennt berttcksichtigt werden kennea Ausgangspunkt fur 
die UsuS dieses Problems liefert die von der Lmguistik her bekannte Tatsache, daB ira Deutsche" die 
grammatisch bestimmenden Teile eines Kompositums regelmaBig am KompOTtumende angeordnet sind. Der 
LSbefimuLhe Bestandteil eines Kompositums gibt dabei Auskunft Qber Genus. Casus, Numerus. wenn das 
Kompositum ein Substantiv ist Analoges gilt fur Verbkotnpoata. ; „ 

ZnrVeraUBemeinerung dieser Tatsache wird weherhin angenommen. daB der vorausgehende Kontext. m dem 
el nL^*M^™*teW^^te t des letzten Bestandteih des Kc^uuns Mitt und 

^iratSwahS^tstheone abgeteiteten Annahme unabningiger Ereignisse bedeutetdie, 
HaR ^ l^men^Comnositumbestandteil die vorausgehenden Bestandteite und der vorausgehende 

Ibmrn o3m£ uS^S^hS^KS man mh W den letzten Kom^itumbestandteil m,tA dje 
wrau^eh^enBestanTeiieund rait C den vorausgehenden Kontext. so UBt nch erne Tngramm-Wahnchem- 
licSd« Wortes W als Kompositumendteil hinter dem Anfangsteil A im Kontext C ausdrucken als: 

r; .. 1r ,. Pr(A|ay)Pr(WlC) _ Pr(A|VV)Pr(WlC) 

In diesem Ausdruck treten zwei unterschiedliche Trigranun-Wal^schemlkAkeiten auf : rMA|W) und PKWjCX 
a I Hi^hnSShkeh des Kompositumanfanges A, gegeben den letzten Kompositumbestandte.l W sowie 
1 £SeT^SS W gSSetden Konfext C tosbesondere wird hierbei ein sogenanntes distantes 
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*»« entsprechea , m Fa „e des 

mil den bedingten WaArscL.Skeh™ 

Hiermit kann das erfindungsgemafle Sprach^elS^e^^ni, h!^ ****** 
ffirdiesenFaUdieentsprecL^ 

pfad, an dessen Ende der KonipodtiiniS^^ " * ear , beitun S*- 

tumhypothese gepruft. auf den fandereSeX *" ' * W,rd ^ Komposi - 

5. 1st der Kompositumkandidat schlieBlich weder AnfanK- noch sSteSL^ ^1^!™!^ . n - 
Anwendung des Verfahrens auf Mehrfachkomposita 

a) SchJuBtdl des Kompositums. gegeben dea Kontext; und 

b) Anf angsteiie des Kompositums, gegeben dessen SchiuSteiL 

40 ?? leg ? n f der WahrschemBchkeiten ist Equivalent rait der Annahme, daB bei mebenem Komnodn.m 

Eine weitere Annahme besagt, daB ein Anfangsteil eines Mehrfachkompositums, der nkht zuzleich Wortan- 
des unmittelbar vorausgehenden Anfangsteds beschrieben werden kann. Es gilt demnach: ^ 8 

55 Pr(hi|hi_, ...hiwiw 2 ) - Pr(hi|hj_i) (n i i > l) (4) 

k^S** ^ ™Sf ,ommen : *■ "* der BnfluB d « Kompositumschlulkeib auf alle Anfangsteile des 
a'uTTS^ 

60 

Pr(h I ...h n |t)- Pr(h,|h,)...IV(h ll _,|h 0 )Pr(h Il |t) (5) 

Aus diesen Annahmen I&Bt sich eine fur die Irapleraentiening widitige Aussage abieiten, cOmlich daB far den 
ersten i K^rnpositumanfangsteU eine Staiidardtrigramm-Wahi^einlichkd heranzuziehen ist und daB fQr die 
65 ^% CnC * Wahrscheinii ^» «ch aus dem Produkt einzelner kompoaiit£ 

bigramm-Wahrscheinhchkeiten zusammensetzt Die entsprechende mathematische Beziehung lautet: 
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Bei der Bearbeitung eines Mehrfachkompositums ist demnach fur jeden Bestandteil jeweils nur e.ne ver- 
glcchsweise teicht auf suchbare Wahrscheinlichkeit in Betracht zu Ziehen. Mit diesem Verfahren lassen sich 
somit die Bearbeitungspfade jedes Kompositumbestandteiies korrekt bewerten. 

Unterden vorgenannten Annahmen folgt schlieBlich die Beziehung: 

Prfo" -AJh^) = Prithfa^TlMhiK) (7) 



i=2 



Zur Berechnung der normierten Wahrscheinlichkeit des Komposituroschluflteils raussen demnach nur die auf 
dem Bearbeitungspfad durch das gesamte Komposituro auftretenden ICoeffizienten Pr<hi|hi-l) multipiiziert 
werden, wodurch die Implementierung dieses Verf ahrens erheblich vereinfacht wird 

PatentansprQche 

1 . Verfahren zur Spracherkennung bei Wortkoraposita enthaltenden Sprachen mit folgenden Schritten: 
Spcicnern einer Menge von phonetischeo Transkriptionen von Wdrtern und Kompositabestandteilen in 
einen ersten Speicher; 

Berechnen einer Menge von N-Gramm Haufigkeiten (SprachmodeU) fur die Wahrscheinlichkeit des Auftre- 
tens eines Kompositums innerhalb einer aus N Wortern zusamraengesetzten Wortfoige unter Heranzie- 
hung eines vorab verarbeiteten Textkorpus', und Spetchern dieser Menge in einen zweiten Speicher 
Erfassen und Digitahsieren des akustischen Sprachstgnals sowie Speichern des digitaksterten Sprachsignais 
in einen dritten Speicher, wobei mittels einer Signaiverarbeitung auf der Grundlage der phonettschen 
Transkriptionen n&herungsweise Wdrter und Komposttumbegrenzungen ennhtefc werden, aus denen hy- 
pothetische Folgen von Wort- bzw. fComposttumkandidaten abgeieuet werden; 
Anlegen von getrennten Bearbeitungspfaden fur Folgen von Kompositum- und Wortkandidaten; 
statistisches Bewerten der Bearbeitungspfade mittels der N-Gramm Haufigkeiten, wobei aus der Folge der 
N-Gramm Haufigkeiten der W6rter bzw. fCompositabestandteile jedes Pfades Ukelihood-Profile gebildet 
werden; sowie 

Gesamtbewerten der Pfade unter Heranziehung der akustischen ObereinstunmungsgOte und der statisti- 
schen SprachniodeUwahrscheinlichkeit 

1 Spracherkennungsverfahren nach Anspruch 1, dadurch gekennzeichnet daB fur einen Kompositumend- 
teil-JCandidaten W, gegeben einen (Context G im SprachmodeU destante N-Grammhaufigkeiten PrfW/Q 
nicht unmittelbar benachbarter Teile einer Wortfoige gebiidet werden. 

3. Spracherkennungsverfahren nach Anspruch t und/oder 2, dadurch gekennzeichnet daB fur einen (Com- 
positumendteil-Kandidaten W, gegeben einen Kompositumanfang A, im SprachmodeU interne N-Gramm- 
haufigkeiten Pr<A/W) mit inverser zeitlicher Abfolge der Kompositumbestandteiie gebildet werdea 

4. Spracherkennungsverfahren nach einem oder mehreren der Anspruche 1 bis 3, dadurch gekennzeichnet 
daB die Bewertung des Sprachkontextes sowohl auf Komposha als audi auf Kompositabestandteilen 
beruht 

5. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet daB akustische Verschleifungen oder Kontraktionen benachbarter Wdrter mittels einer 
fContextfunktion berucksichtigt werden. 

6. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet daB for iCorapositumkandidaten etn Bearbeitungspfad bereits dann angelegt wird, wenn ein 
potentieiler Anfangsteil aufgrund einer spezifischen Pfadbewertung zu einer Kompositumhypo these beob- 
achtetwircL 

7. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet daB das Sprachsignal mittels einer Grobabstimmung zur Ermittlung wahrscheinltcher Wort- 
bzw. Kompositumgrenzen ausgewertet wird, und daran anschlieBend eine Feinabstimmung zwischen dem 
akustischen Signal und den jeweiligen Wort- bzw. Kompositumkandidaten vorgenommen wird. 

8. Spracherkennungs^ erf ahren nach einem oder mehreren der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet daB fur jeden Bearbeitungspfad Zugriffe auf reievante Sprachmodeildatenblocke erfolgen. 

9. Spracherkennungsverfahren nach einem oder mehreren der vorhergehenden Anspruche, dadurch ge- 
kennzeichnet daB zur Berechnung der Wahrscheinlichkeit eines IComposituraendteils von dem vorausge- 
henden fContext und dem Anfangsteil des Kompositums ausgegangen wird 

10. Spracherkennungsverfahren nach Anspruch 9, dadurch gekennzeichnet daB eine Wahrscheinlichkeit 
Pr(W/GA) eines Kompositumbestandteils W als Kompositumendteil hinter einem Kompositumanfangsteil 
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A unter Beriicksichtigung des vorausgehenden, aus zwei Wdrtern bzw. Komposita zusammengesetzten 
Kontextes C aus dem normierten Produkt eincr innerhalb des Kompositums gebildeten inneren Bigramm- 
wahrscheinlichkeit Pr^A/W) und einer auBerhalb des Kompositums gebildeten distanten Trigrammwahr- 
scheinlichkeit Pr(W/Q ermittelt wird 

5 11. Spracherkennungsverfahren nach Anspruch 9 und/oder 10 bei Mehrfachkomposita enthaltenden Spra- 
chen, dadurch gekennzeichnet, dafi unter den Annahmen, daB bei gegebenem SchluBteil der Anfang eines 
Kompositums unabhangig vom Kontext ist. daB etn nicht am Kompositumanfang stehender Anfangsteil 
eines Mehrfachkompositums durch die Wahrscheinlichkeit Pr(Ai/Aj_i) seiner Folge auf den unmitteibar 
vorausgehenden Anfangsteil bestimmt ist, und daB sich der EinfluB des SchluBteib auf alle Anfangsteile des 

io Kompositums in unabhangige Beitrage des SchluBteils auf den letzten Anfangsteil und der ubrigen An- 
fangsteile auf ihre jeweiligen Vorganger zcrlegen laBt, zur Berechnung der normierten Wahrscheinlichkeit 
des KomposttumschluBteils auf einem Bearbeitungspfad durch das Komposituro auftretende Pfadkoeffi- 
zienten multipliziert werden. 

12. Anordnung zur Spracherkennung bei Wortkomposha enthaltenden Sprachen mittels eines Spracher- 
ts kennungsverfahrens gecnaB etnem oder mehreren der vorhergehenden Anspruche, mit 

einer Einrichtung zur Erfassung des akustischen Sprachsignab; 
einer Einrichtung zur Digitaiisterung des akustischen Sprachsignals; 

einer Einrichtung zur Erstellung einer Menge von phonetischen Transkriptionen von Wdrtern und Kompo- 
sitabestandteilen; 

to einer Einrichtung zur Erstellung von Listen- bezuglich einfacher Wdrter, Kompositumanfangsteile und 
Kompositumendteile ; 

einer Einrichtung zur Erraittlung der jeweiligen SprachmodelhvahrscheinJichkeiten auf einem Bearbei- 
tungspfad fur die Listen; 

einer Einrichtung zur Ermittlung von Likelihood-Profilen fur hypothettsche Wort- bzw. Kompositafolgen; 
25 und 

einer Einrichtung zur Erzeugung und Vernichtung von Bearbeitungspfaden sowie zur Entscheidung Qber 
die Erzeugung und die Vernichtung von Bearbeitungspfaden. 

13. Spracherkennungsanordnung nach Anspruch 12, mit einer Einrichtung zur Kennzeichnung von Kompo- 
sitabestandteilen ah Anf angs- oder SchluBteile. 

30 14. Spracherkennungsanordnung nach Anspruch 12 und/oder 13, mit einer Einrichtung zum Erstellen und 
Laden von Datenbidcken von Sprachnic<iellwahncheinuchketten. 

15. Spracherkennungsanordnung nach einem oder mehreren der Anspruche 12 bis 14, mit einer Einrichtung 
zur Bereitstdlung beliebig vieler Kompositamodeile in Form von SprachmodellkUssen. 

16. Spracherkennungsanordnung nach einem oder mehreren der Anspruche 12 bis 15, mit einer Einrichtung 
35 zur Erstellung einer Kontextfunktioa 
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